\section{信息-热力学对偶性的证明}
\label{app:info-thermo-proof}

本附录提供命题~\ref{prop:info-thermo-duality}的详细证明,该命题建立了层级系统中信息流与热力学代价之间的基本界。

{\color{red}\textbf{[核心思想]:} 这个证明揭示了一个深刻的物理原理:在层级系统中传递信息(协调)必然要付出热力学代价(耗散)。信息不是``免费''的——每一比特从下层流向上层都伴随着熵产生。}

\begin{proposition}[信息-热力学对偶性(形式化陈述)]
\label{prop:info-thermo-duality}
考虑通过聚合和执行算子耦合的层级$\ell$和$\ell+1$。设$X_t^{(\ell+1)}$表示$\ell+1$层在时刻$t$的状态,$Y_t^{(\ell)}$表示从$\ell$层聚合的状态。从层级$\ell$到$\ell+1$的转移熵被驱动熵产生率上界:
\begin{equation}
    TE_{\ell \to \ell+1} = I(X_{t+1}^{(\ell+1)}; Y_t^{(\ell)} \mid X_t^{(\ell+1)}) \leq \sigma_{\ell+1}^{\text{driven}},
    \label{eq:te-bound-formal}
\end{equation}
其中驱动熵产生率为
\begin{equation}
    \sigma_{\ell+1}^{\text{driven}} = k_B \left\langle J \cdot \ln\left(\frac{\pi_s w_{ss'}}{\pi_{s'} w_{s's}}\right) \right\rangle,
    \label{eq:driven-entropy-production}
\end{equation}
这里$\pi_s$是稳态分布,$w_{ss'}$是转移速率,$J_{ss'} = \pi_s w_{ss'} - \pi_{s'} w_{s's}$是概率流。
\end{proposition}

{\color{red}\textbf{[物理图像]:} 把$TE$想象成``信息管道的流量''(每秒传递多少比特),把$\sigma^{\text{driven}}$想象成``为推动这个流量而必须消耗的能量''。不等式$TE \leq \sigma^{\text{driven}}$说:管道流量越大,能耗下界越高。}

\subsection{数学预备知识}

在进行主要证明之前,我们建立三个基本引理,分解热力学量和信息论量。

{\color{red}\textbf{[证明策略]:} 证明分三步走:先分解概率流(引理1),再建立熵产生的信息论解释(引理2),最后连接涨落-耗散定理(引理3)。这种分层结构让复杂证明变得清晰。}

\begin{lemma}[概率流分解]
\label{lem:current-decomposition}
连续时间马尔可夫链中的任何概率流$J_{ss'}$都可以唯一分解为
\begin{equation}
    J_{ss'} = J_{ss'}^{\text{driven}} + J_{ss'}^{\text{intrinsic}},
\end{equation}
其中驱动流响应来自$\ell$层的外部驱动:
\begin{equation}
    J_{ss'}^{\text{driven}} = \frac{1}{2}(\pi_s w_{ss'} - \pi_{s'} w_{s's}) \cdot \mathbb{1}_{\{\text{transition influenced by level } \ell\}},
\end{equation}
内禀流来自$\ell+1$层内部的细致平衡破坏:
\begin{equation}
    J_{ss'}^{\text{intrinsic}} = J_{ss'} - J_{ss'}^{\text{driven}}.
\end{equation}
\end{lemma}

{\color{red}\textbf{[数学洞察]:} 这个分解类似于物理学中把速度分解为``平均流动+涨落''。驱动流是``上级命令引起的定向运动'',内禀流是``自身热涨落引起的无序运动''。两者正交,互不干扰。}

\begin{proof}
分解源于将$\ell+1$层的状态转移划分为与$\ell$层观测$Y_t^{(\ell)}$耦合的转移与自主动力学转移。对于由$\ell$层执行触发的转移$s \to s'$,转移速率允许因式分解
\begin{equation}
    w_{ss'}(y) = w_{ss'}^{(0)} \cdot f_{\ell}(y),
\end{equation}
其中$w_{ss'}^{(0)}$是基线速率,$f_\ell(y)$编码层级耦合强度。对$y \sim p(Y_t^{(\ell)})$求平均并减去细致平衡解就得到驱动分量。内禀分量捕捉所有剩余概率流,包括与层级影响正交的涨落。唯一性来自状态空间图上流矢量场的Hodge分解中驱动和内禀子空间的正交性。
\end{proof}

{\color{red}\textbf{[为什么需要Hodge分解]:} 在图上的矢量场可以分解为``梯度场(势流)+旋度场(循环流)+调和场''。驱动流类似势流(来自外势),内禀流类似旋度流(内部循环),Hodge定理保证这个分解唯一。}

\begin{lemma}[熵产生的信息论解释]
\label{lem:info-interpretation}
$\ell+1$层的总熵产生率满足
\begin{equation}
    \sigma_{\ell+1}^{\text{total}} = k_B \sum_{s,s'} J_{ss'} \ln\left(\frac{\pi_s w_{ss'}}{\pi_{s'} w_{s's}}\right) = k_B \sum_{s,s'} J_{ss'} \ln\left(\frac{p(s \to s')}{p(s' \to s)}\right),
\end{equation}
可改写为正向和反向过程分布之间的相对熵率:
\begin{equation}
    \sigma_{\ell+1}^{\text{total}} = k_B \frac{\diff}{\diff t} D_{\text{KL}}(p_{\text{forward}} \| p_{\text{reverse}}).
    \label{eq:sigma-as-kl-rate}
\end{equation}
\end{lemma}

{\color{red}\textbf{[关键洞察]:} 熵产生$\sigma$不仅是热力学量,更是信息论量——它测量``正放过程与倒放过程的可区分程度''。$\sigma$越大,时间箭头越明显,不可逆性越强。当$\sigma=0$时,正放倒放不可区分,过程完全可逆。}

\begin{proof}
从熵产生定义出发,引入轨迹概率比。对于轨迹$\omega = (s_0, s_1, \ldots, s_T)$,正向路径概率为$P[\omega] = \prod_{t=0}^{T-1} p(s_{t+1} \mid s_t)$,反向为$P[\tilde{\omega}] = \prod_{t=0}^{T-1} p(s_t \mid s_{t+1})$。取对数:
\begin{equation}
    \ln\frac{P[\omega]}{P[\tilde{\omega}]} = \sum_{t=0}^{T-1} \ln\frac{p(s_{t+1} \mid s_t)}{p(s_t \mid s_{t+1})} = \sum_{t=0}^{T-1} \ln\frac{\pi_{s_t} w_{s_t s_{t+1}}}{\pi_{s_{t+1}} w_{s_{t+1} s_t}}.
\end{equation}
对从正向过程采样的轨迹求平均并除以$T$得到单位时间熵产生率。KL散度解释来自$$D_{\text{KL}}(p_{\text{forward}} \| p_{\text{reverse}}) = \mathbb{E}_{\text{forward}}[\ln(P[\omega]/P[\tilde{\omega}])]$$
\end{proof}

{\color{red}\textbf{[物理图像]:} 想象拍摄分子运动的视频。正放播放看起来``自然'',倒放播放看起来``怪异''——熵产生量化了这种怪异程度。对于可逆过程(如行星运动),正放倒放都自然,$\sigma=0$;对于不可逆过程(如墨水扩散),倒放极其反常,$\sigma\gg 0$。}

\begin{lemma}[与涨落-耗散定理的联系]
\label{lem:fluctuation-dissipation}
对于受$\ell$层小驱动力$\delta F_\ell$作用的近平衡系统,驱动熵产生服从
\begin{equation}
    \sigma_{\ell+1}^{\text{driven}} = \frac{1}{k_B T_{\ell+1}} \langle (\delta F_\ell)^2 \rangle \chi_{\ell+1} + O(\delta F_\ell^3),
    \label{eq:linear-response}
\end{equation}
其中$\chi_{\ell+1}$是$\ell+1$层的广义磁化率(响应函数),$T_{\ell+1}$是有效温度。
\end{lemma}

{\color{red}\textbf{[涨落-耗散的本质]:} 这个定理连接了两个看似无关的量:系统对外力的响应强度$\chi$(宏观量)与平衡态的自发涨落强度(微观量)。它说:容易涨落的系统也容易被推动——柔软的弹簧既容易抖动,也容易拉伸。}

\begin{proof}
将转移速率展开到驱动力二阶:$w_{ss'}(F) = w_{ss'}^{\text{eq}} + (\partial w_{ss'}/\partial F)|_{F=0} \delta F_\ell + \frac{1}{2}(\partial^2 w_{ss'}/\partial F^2)|_{F=0}(\delta F_\ell)^2 + \cdots$。在平衡态,细致平衡成立:$\pi_s^{\text{eq}} w_{ss'}^{\text{eq}} = \pi_{s'}^{\text{eq}} w_{s's}^{\text{eq}}$,所以一阶流消失。二阶贡献给出
\begin{equation}
    J_{ss'}^{\text{driven}} = \frac{1}{2} \pi_s^{\text{eq}} \frac{\partial^2 w_{ss'}}{\partial F^2} (\delta F_\ell)^2 + O(\delta F_\ell^3).
\end{equation}
磁化率$\chi_{\ell+1} = (\partial^2 \langle X \rangle / \partial F^2)|_{F=0}$量化响应曲率。代入熵产生公式并使用Onsager互易关系得到式~\eqref{eq:linear-response}。这将微观涨落(由$\chi$表征)与宏观耗散(由$\sigma^{\text{driven}}$表征)联系起来,体现了层级背景下的涨落-耗散定理。
\end{proof}

{\color{red}\textbf{[为什么是平方]:} 一阶项$\propto \delta F$消失是因为平衡态是稳定的(一阶导数为零)。真正的耗散从二阶$\propto (\delta F)^2$开始——这就是为什么小扰动的耗散总是``平方律''。类比:弹簧的势能$\sim x^2$,不是$\sim x$。}

\subsection{主要证明}

我们现在通过基于信息论和随机热力学的一系列不等式建立连接转移熵与驱动熵产生的上界。

{\color{red}\textbf{[证明架构]:} 五步战略:1)将TE写成条件互信息; 2)用转移速率表示; 3)应用数据处理不等式; 4)分解熵产生; 5)建立最终界。每一步都有清晰的物理或信息论依据。}

\textbf{步骤1:转移熵作为条件互信息。}
根据定义,从$\ell$层到$\ell+1$层的转移熵为
\begin{equation}
    TE_{\ell \to \ell+1} = I(X_{t+1}^{(\ell+1)}; Y_t^{(\ell)} \mid X_t^{(\ell+1)}) = H(X_{t+1}^{(\ell+1)} \mid X_t^{(\ell+1)}) - H(X_{t+1}^{(\ell+1)} \mid X_t^{(\ell+1)}, Y_t^{(\ell)}).
    \label{eq:te-definition}
\end{equation}
用条件概率展开:
\begin{align}
    TE_{\ell \to \ell+1} &= \sum_{x_{t+1}, x_t, y_t} p(x_{t+1}, x_t, y_t) \ln\frac{p(x_{t+1} \mid x_t, y_t)}{p(x_{t+1} \mid x_t)} \nonumber \\
    &= \mathbb{E}\left[\ln\frac{p(X_{t+1}^{(\ell+1)} \mid X_t^{(\ell+1)}, Y_t^{(\ell)})}{p(X_{t+1}^{(\ell+1)} \mid X_t^{(\ell+1)})}\right].
    \label{eq:te-expectation}
\end{align}

{\color{red}\textbf{[信息论直觉]:} $TE$测量``知道下层信息$Y_t^{(\ell)}$能多大程度减少对上层未来状态$X_{t+1}^{(\ell+1)}$的不确定性''。如果下层信息无用,$TE=0$;如果完全决定未来,$TE$最大。它是``层级耦合强度''的信息度量。}

\textbf{步骤2:将条件概率与转移速率联系。}
在连续时间马尔可夫链表述中,无穷小转移概率为$p(X_{t+\Delta t} = s' \mid X_t = s, Y_t = y) = w_{ss'}(y) \Delta t + o(\Delta t)$。对于小$\Delta t$:
\begin{equation}
    \ln\frac{p(s' \mid s, y)}{p(s' \mid s)} \approx \ln\frac{w_{ss'}(y)}{w_{ss'}^{(0)}} = \ln\left(1 + \frac{w_{ss'}(y) - w_{ss'}^{(0)}}{w_{ss'}^{(0)}}\right) \approx \frac{w_{ss'}(y) - w_{ss'}^{(0)}}{w_{ss'}^{(0)}},
\end{equation}
其中$w_{ss'}^{(0)} = \mathbb{E}_y[w_{ss'}(y)]$是无条件速率。代入式~\eqref{eq:te-expectation}:
\begin{equation}
    TE_{\ell \to \ell+1} \approx \Delta t \sum_{s,s',y} p(s,y) w_{ss'}(y) \frac{w_{ss'}(y) - w_{ss'}^{(0)}}{w_{ss'}^{(0)}}.
    \label{eq:te-rates}
\end{equation}

{\color{red}\textbf{[技巧]:} 用$\ln(1+x) \approx x$的泰勒展开将对数比转化为线性差。这在$w_{ss'}(y)$接近$w_{ss'}^{(0)}$时有效——即层级耦合是``微扰''而非``巨变''的情形。}

\textbf{步骤3:数据处理不等式。}
数据处理不等式指出后处理不能增加互信息。应用于层级耦合,$\ell+1$层通过观测$Y_t^{(\ell)}$获得的关于$\ell$层的信息被观测的总信息内容上界:
\begin{equation}
    I(X_{t+1}^{(\ell+1)}; Y_t^{(\ell)} \mid X_t^{(\ell+1)}) \leq I(X_{t+1}^{(\ell+1)}; X_t^{(\ell)} \mid X_t^{(\ell+1)}),
    \label{eq:dpi-hierarchy}
\end{equation}
当聚合无损时取等号。然而,我们寻求涉及热力学量的更紧界。

{\color{red}\textbf{[信息不能凭空产生]:} 数据处理不等式的本质是``丢弃信息容易,创造信息不可能''。聚合$Y_t^{(\ell)}$已经丢失了$X_t^{(\ell)}$的部分信息,所以基于$Y$的推断不可能比基于完整$X$更好。}

\textbf{步骤4:熵产生的分解。}
由引理~\ref{lem:current-decomposition},将概率流划分为驱动和内禀分量。总熵产生分解为
\begin{equation}
    \sigma_{\ell+1}^{\text{total}} = \sigma_{\ell+1}^{\text{driven}} + \sigma_{\ell+1}^{\text{intrinsic}},
\end{equation}
其中
\begin{align}
    \sigma_{\ell+1}^{\text{driven}} &= k_B \sum_{s,s'} J_{ss'}^{\text{driven}} \ln\left(\frac{\pi_s w_{ss'}}{\pi_{s'} w_{s's}}\right), \\
    \sigma_{\ell+1}^{\text{intrinsic}} &= k_B \sum_{s,s'} J_{ss'}^{\text{intrinsic}} \ln\left(\frac{\pi_s w_{ss'}}{\pi_{s'} w_{s's}}\right).
\end{align}

{\color{red}\textbf{[两类耗散]:} 驱动熵产生$\sigma^{\text{driven}}$是``为执行上级命令而付出的代价'';内禀熵产生$\sigma^{\text{intrinsic}}$是``自身内部不可逆过程的代价''(如摩擦、热传导)。前者与层级耦合直接相关,后者是背景噪声。}

\textbf{步骤5:用驱动熵产生界定转移熵。}
关键洞察是转移熵测量给定$Y_t^{(\ell)}$知识后对$X_{t+1}^{(\ell+1)}$不确定性的减少,这直接对应于从$\ell$层提取信息以驱动$\ell+1$层转移。我们通过驱动和自主动力学之间分布的相对熵建立界。

考虑$\ell$层观测驱动的转移分布与自主转移之间的Kullback-Leibler散度:
\begin{equation}
    D_{\text{KL}}(p_{\text{driven}} \| p_{\text{autonomous}}) = \sum_{s \to s'} p_{\text{driven}}(s \to s') \ln\frac{p_{\text{driven}}(s \to s')}{p_{\text{autonomous}}(s \to s')}.
    \label{eq:kl-driven-auto}
\end{equation}

由引理~\ref{lem:info-interpretation},驱动熵产生是这个KL散度的时间导数:
\begin{equation}
    \sigma_{\ell+1}^{\text{driven}} = k_B \frac{\diff}{\diff t} D_{\text{KL}}(p_{\text{driven}} \| p_{\text{autonomous}}).
\end{equation}

同时,转移熵测量瞬时互信息增益,由Pinsker不等式满足
\begin{equation}
    TE_{\ell \to \ell+1} \leq \sqrt{2 D_{\text{KL}}(p_{\text{driven}} \| p_{\text{autonomous}})}.
\end{equation}

然而,对于连续极限中的小时间步$\Delta t$,KL散度线性标度:$D_{\text{KL}} \sim TE \cdot \Delta t$。因此:
\begin{equation}
    TE_{\ell \to \ell+1} \leq \frac{1}{k_B \Delta t} \int_0^{\Delta t} \sigma_{\ell+1}^{\text{driven}}(t') \diff t' = \sigma_{\ell+1}^{\text{driven}}.
    \label{eq:te-sigma-bound}
\end{equation}

这就建立了基本界。

{\color{red}\textbf{[证明的高潮]:} 这一步是整个证明的核心——它将信息论量($TE$)与热力学量($\sigma^{\text{driven}}$)用一个简洁不等式联系起来。物理上,它说``传递信息必须耗散能量'',数学上,它将互信息与相对熵的时间演化联系起来。这是信息热力学的基石之一。}

\subsection{物理解释与等号条件}

\textbf{物理意义。}界~\eqref{eq:te-sigma-bound}揭示了一个基本权衡:要从$\ell$层向$\ell+1$层传递信息,$\ell+1$层的系统必须经历不可逆转移,耗散与熵产生成正比的能量。低转移熵配高熵产生表示低效协调——能量被耗散但没有有效信息传输。相反,高$TE$配低$\sigma^{\text{driven}}$表示近可逆协调,上级指令与自然动力学对齐。

{\color{red}\textbf{[设计原则]:} 好的层级系统应该追求高$TE/\sigma^{\text{driven}}$比率——用最少的能量耗散传递最多的信息。这类似于电路设计中的能效:每焦耳能量传递多少比特?优秀的层级组织让下级``自然地''执行上级意图,无需强制,因而耗散少。}

\textbf{等号条件。}当以下条件满足时达到等式$TE_{\ell \to \ell+1} = \sigma_{\ell+1}^{\text{driven}}$:
\begin{enumerate}
    \item $\ell$层的驱动力弱:$\delta F_\ell \ll k_B T_{\ell+1}$。
    \item 转移速率相对于层级耦合满足局部细致平衡:
    \begin{equation}
        \frac{w_{ss'}(y)}{w_{s's}(y)} = \exp\left(\frac{\Delta G_{ss'}(y)}{k_B T_{\ell+1}}\right),
    \end{equation}
    其中$\Delta G_{ss'}(y)$是包含层级耦合的自由能差。
    \item 系统在内禀熵产生消失的稳态附近运行:$\sigma_{\ell+1}^{\text{intrinsic}} \approx 0$。
\end{enumerate}

在这个区域,引理~\ref{lem:fluctuation-dissipation}适用,界饱和:
\begin{equation}
    TE_{\ell \to \ell+1} \approx \sigma_{\ell+1}^{\text{driven}} \approx \frac{\langle (\delta F_\ell)^2 \rangle \chi_{\ell+1}}{k_B T_{\ell+1}}.
\end{equation}

这通过涨落-耗散定理将信息流与热力学涨落联系起来,提供了协调效率的定量度量。

{\color{red}\textbf{[近平衡的魔力]:} 为什么近平衡特殊?因为此时系统``自愿''遵循外力指引——外力只需微调,不需强推。这就像熟练工人理解上级意图,只需轻微提示就能执行,而非需要详细命令。}

\textbf{远离平衡行为。}远离平衡时,界变松,因为内禀熵产生占主导。比率$TE/\sigma^{\text{driven}}$可作为协调效率度量:
\begin{equation}
    \eta_{\text{coord}} = \frac{TE_{\ell \to \ell+1}}{\sigma_{\ell+1}^{\text{driven}}} \in [0, 1].
\end{equation}

值$\eta_{\text{coord}} \ll 1$表示浪费耗散;值$\eta_{\text{coord}} \approx 1$表示高效近可逆信息传递。监测$\eta_{\text{coord}}$为层级系统优化提供可行诊断。

{\color{red}\textbf{[诊断工具]:} 在真实组织中测量$\eta_{\text{coord}}$:如果管理层发出很多指令($\sigma^{\text{driven}}$大)但下级行为没什么改变($TE$小),说明协调效率低,可能是沟通障碍或激励错位。这个比率是``管理有效性''的物理指标。}

